big data - overfit.cn

国家多部委发布13份“十四五”规划，115项重大工程

近段时间，国家多个部委陆续发布各自领域的“十四五”发展规划。据不完全统计，已发布《“十四五”数字经济发展规划》《“十四五”智能制造发展规划》、《“十四五”大数据产业发展规划》、《“十四五”机器人产业发展规划》等13个与科技领域相关的政策文件。

overfit同步小助手 2022-05-06 10:19:12 0 收藏

数据中台建设（七）：数据资产管理

文章目录数据资产管理一、数据标准管理二、元数据管理三、主数据管理四、数据质量管理五、数据安全管理六、数据共享管理七、数据生命周期管理数据资产管理随着企业数据越来越大，企业意识到数据是一种无形的资产，通过对企业各业务线产生的海量数据进行合理管理和有效应用，能盘活并充分释放数

overfit同步小助手 2022-05-06 07:19:45 0 收藏

第2篇: Elasticsearch的相关名称解释

目前国内有大量的公司都在使用 Elasticsearch，包括阿里、京东、滴滴、今日头条、小米、vivo等诸多知名公司。除了搜索功能之外，Elasticsearch还结合Kibana、Logstash、Elastic Stack还被广泛运用在大数据近实时分析领域，包括日志分析、指标监控等多个领域。

overfit同步小助手 2022-05-05 11:01:07 0 收藏

Spark机器学习实战-Spark的安装及使用

本文首先介绍了Spark的基础知识以及RDD和DataFrame这些核心概念，然后演示了如何下载Spark二进制版本并搭建一个本地单机模式下的开发环境，最后通过Python语言来编写第一个Spark程序。

overfit同步小助手 2022-05-03 10:36:55 0 收藏

SparkStreaming--scala

第1关：QueueStream本关任务：编写一个清洗QueueStream数据的SparkStreaming程序。 import java.text.SimpleDateFormat import java.util.Date import org.apache.spark.{Ha

overfit同步小助手 2022-05-02 07:48:37 0 收藏

(详细)Hadoop配置实战-伪分布式

Hadoop集群配置，伪分布式，hdfs命令，hadoop集群命令，Hadoop相关下载地址

overfit同步小助手 2022-05-02 07:48:35 0 收藏

大数据技术原理及应用：开发与运行环境安装与介绍（第一部分）

开发与运行环境安装与介绍以后要更大数据系列啦！还请大家多多关注！虚拟化软件的安装安装好VMware打开VMware，如图所示。虚拟机的创建标题Vmware tools的安装JDK的安装

overfit同步小助手 2022-05-02 07:48:32 0 收藏

数据中台建设（三）：数据中台架构介绍

数据中台要求全企业共用一个数据技术平台、共建数据体系、共享数据服务能力。实际上一个企业中由于各个业务线发展不均衡，各自都有独立的数据处理架构，导致共享数据非常困难，所以要构建数据中台不仅是对技术架构的改变，同时还是对整个企业业务运转模式的改变，需要企业在组织架构和资源方面给予支持。数据中台是一个企业

overfit同步小助手 2022-05-01 09:52:57 0 收藏

超详细的基于docker搭建hadoop集群

基于Docker搭建Hadoop集群

overfit同步小助手 2022-04-30 08:03:53 0 收藏

记一次基于CBO的Oracle SQL调优

overfit同步小助手 2022-04-25 07:21:44 0 收藏

大数据A环境搭建--HADOOP--Ubuntu

模块A环境搭建一、安装JDK1.更改主机名字2.配置密钥免密登录3.映射地址4 .解压并移动5.配置环境变量6.分发到各个节点二、安装HADOOP1.解压并且移动2.配置环境变量3.配置.sh和.xml文件i.创建临时文件ii.配置hadoop-env.shiii.配置core-site.xmlV

overfit同步小助手 2022-04-23 11:41:24 0 收藏

通俗理解大数据及其应用价值

在大数据这个概念兴起之前，信息系统存储数据的方法主要是我们熟知的关系型数据库，关系型数据库，关系型模型之父 Edgar F. Codd，在 1970 年 Communications of ACM 上发表了《大型共享数据库数据的关系模型》的经典论文，从此之后关系模型的语义设计达到了 40 年来普世、

overfit同步小助手 2022-04-20 10:08:40 0 收藏

Spark框架-离线数据统计

数据清洗任务简介:第一步：输出日志(使用spark默认的log4j配置文件)第二步：创建SparkSession对象(关闭严格模式,否则创建静态分区)第三步:拿出所有的表并进行清洗第四步：删除分区并且统计第五步：将对于字段的日期改为timestamp类型第六步：去除重复字段并创建临时视图第七步：查看

overfit同步小助手 2022-04-14 07:38:26 0 收藏

Spark框架——离线数据抽取(样题实例超详细)

模块B离线数据抽取任务简介具体步骤简介第一步：开启动态分区第二步：提取前一天时间第三步：读取MYSQL数据第四步：全量写入数据第五步：Main第六步：打包集群第七步：找到jar包第八步：把jar包打包到集群目录下第九步：进入Master目录下运行任务简介具体步骤简介第一步：开启动态分区val spa

overfit同步小助手 2022-04-13 07:38:19 0 收藏

基于Hadoop的带词频统计的文档倒排索引算法实现

文档倒排索引是一种支持全文检索的数据结构，该索引结构被用来存储某个单词(或词组)在一个文档或者一组文档中存储位置的映射，即提供了一种根据内容来查找文档的方式。一个倒排索引由大量的postings列表构成，每一个posting列表与一个单词term相关联，由多个posting的列表组成，每一个post

overfit同步小助手 2022-04-11 07:43:40 0 收藏

INFINI Gateway：Elasticsearch 极限网关入门手册

最近，我有幸接触到 medcl 大神的杰作：极限网关（INFINI GATEWAY）。INFINIGateway 有很多优点，也有很多应用的场景。你可以在官方网站上进行阅读。简单说来，极限网关（INFINI Gateway）是一个面向 Elasticsearch 的高性能应用网关，它包含丰富的特性，

overfit同步小助手 2022-04-08 07:59:32 0 收藏

Spark任务提交源码

本文主要介绍了spark源码提交的流程，从SparkSubmit类main方法跟踪到spark主要实体driver和executor的创建过程，记录了整个过程中比较重要的节点的源码，以及对相关方法的功能实现进行了简要介绍。

overfit同步小助手 2022-03-31 09:39:03 0 收藏

大数据之安装Hadoop单机伪分布（新手上路必备）三

1，安装vmware虚拟机，Linux版本可以自行选择2，安装ubuntu虚拟机 2.1 下载iso镜像百度搜索中国镜像站随便哪个网页都可以，各大公司，各大高校； 2.2 安装ubuntu虚拟机；3，hadoop的安装模式官方帮助文档https://hadoop.apache.org/doc

overfit同步小助手 2022-03-31 09:38:50 0 收藏

实习踩坑之路：一个ElasticSearchJava客户端的批量处理操作bulkIndexAsync引发的内存泄漏的血案

没错这又是一次血案，不过是在测试环境发现的，还好不是上次线上导致的CPU300%，这次及时发现，避免了线上血案，不过我还是要复盘一下的，下面就看看我的分析，看看有没有什么错误的地方

overfit同步小助手 2022-03-28 08:04:17 0 收藏

Java大数据面试复习30天冲刺 - 日积月累，每日五题【Day04】——JavaSE

创建线程有几种方式1.通过继承Thread类实现，实现简单但不可以继承其他类，多个线程之间无法共享该线程类的实例变量。2.实现Runnable接口，较继承Thread类，避免继承的局限性，适合资源共享。3.使用Callable，方法中可以有返回值，并且抛出异常。4.创建线程池实现，线程池提供了一个线

overfit同步小助手 2022-03-26 08:49:52 0 收藏